草庐IT

Java Quartz 作业持久化

全部标签

java - 链接多个 hadoop 作业并无需等待即可提交

我正在尝试弄清楚如何链接多个hadoop作业,将一步的输出提供给下一步的输入。我通过谷歌搜索发现的很多东西都说我应该从单个线程一次调用一个并等待完成,或者我应该使用Job.addDependingJob()然后提交它们。我选择了后者,但我似乎无法在前一个作业完成后执行后续作业。这是我的代码:Listjobs=newArrayList();for(inti=0;i所有作业同时运行,我得到如下输出:未设置作业jar文件。可能找不到用户类别。参见JobConf(Class)或JobConf#setJar(String)。要处理的总输入路径:1使用GenericOptionsParser来解析

hadoop - 将所有映射器中遇到的最大键作为参数传递给下一个作业

我有一个Map/Reduce作业链:Job1将带有时间戳的数据作为键,将一些数据作为值进行转换。对于Job2,我需要将出现在Job1中所有映射器中的最大时间戳作为参数传递。(我知道如何将参数传递给Mappers/Reducers)我可以跟踪Job1的每个映射器中的最大时间戳,但是我怎样才能获得所有映射器中的最大值并将其作为参数传递给Job2?我想避免仅仅为了确定最大时间戳而运行Map/Reduce作业,因为我的数据集的大小在TB以上。有没有办法使用Hadoop或Zookeeper来完成此任务? 最佳答案 2个map无法相互通信。因此

file - Hadoop:将文件或文件路径发送到 map reduce 作业

假设我有N个文件要使用hadoopmap-reduce处理,让我们假设它们很大,远远超过block大小并且只有几百个。现在我想处理这些文件中的每一个,让我们假设字数统计示例。我的问题是:创建一个输入为包含每个文件路径的文本文件的map-reduce作业与将每个文件直接发送到map函数(即连接所有文件)之间有什么区别并将它们插入不同的映射器[编辑]。这些都是有效的方法吗?它们有什么缺点吗?感谢您的及时回答,我已经详细描述了我的问题,因为我的抽象可能遗漏了一些重要主题:我的应用程序在HadoopHDFS上有N个小文件,我只需要处理每个文件。所以我使用映射函数将python脚本应用于每个文件

hadoop - 我可以使用 Combiner 在 mapreduce 作业中计算平均值吗?

我想实现一个mapreduce作业,该作业读取具有以下架构的Parquet文件:{optionalint96dropoff_datetime;optionalfloatdropoff_latitude;optionalfloatdropoff_longitude;optionalint32dropoff_taxizone_id;optionalfloatehail_fee;optionalfloatextra;optionalfloatfare_amount;optionalfloatimprovement_surcharge;optionalfloatmta_tax;optional

hadoop - 从远程客户端在 Yarn 集群上提交 Spark 作业

我想使用spark-submit命令在远程YARN集群上提交Spark作业。我的客户端是一台Windows机器,集群由一个主机和4个从机组成。我将Hadoop配置文件从我的集群复制到远程机器,即core-site.xml和yarn-site.xml并在spark中设置HADOOP_CONF_DIR变量-env.sh指向它们。但是,当我使用以下命令提交作业时:spark-submit--jarshdfs:///user/kmansour/elevation/geotrellis-1.2.1-assembly.jar\--classtutorial.CalculateFlowDirecti

hadoop - 如何限制 Pig 脚本启动的并发作业数?

我正在尝试使用Hortonworkssandbox在Pig中为POC实现简单的数据处理流程.思路如下:有一组已经处理过的数据。新数据集应添加到旧数据中,不要重复。出于测试目的,我使用非常小的数据集(小于10KB)。对于虚拟机,我分配了4GBRAM和4个处理器内核中的2个。这是我的Pig脚本:--CONFIGURABLEPROPERTIES%DEFAULTatbInput'/user/hue/ATB_Details/in/1'%DEFAULTatbOutputBase'/user/hue/ATB_Details/out/1'%DEFAULTatbPrevOutputBase'/user/

hadoop - 无法运行 hadoop 流作业 : Missing required options: input, 输出

我正在尝试在DSE3.1分析服务器集群上运行流媒体作业。我正在使用CassandraCF进行输入。但它提示输入和输出参数,但它们已设置(我设置它只是因为提示):dsehadoopjar$HADOOP_HOME/lib/hadoop-streaming-1.0.4.8.jar\-Dcassandra.input.keyspace="tmp_ks"\-Dcassandra.input.partitioner.class="MurMur3Partitioner"\-Dcassandra.input.columnfamily="tmp_cf"\-Dcassandra.consistencyle

java - 为什么建议将 scan.setCacheBlocks(false) 用于 mapReduce 作业?

我理解为什么scan.setCaching对mapreduce作业有好处,但我不明白为什么setCacheBlocks(false)不好。它会使服务器负担过重吗? 最佳答案 简而言之-是,如果您在mapreduce作业中将blockcaching设置为true,它会给RegionServer带来负担。当您主要在输入扫描上使用mapreduce作业时,最近扫描的输入将在下一个映射阶段被丢弃。Blockcache是​​LRU..第一次请求的时候把数据放入Blockcache,第二次请求的时候发现没用就交换,然后继续。所以RegionSe

memory - 如何更改 EMR hadoop 流作业中的内存

我正在尝试克服EMR上的hadoop流作业中的以下错误。Container[pid=30356,containerID=container_1391517294402_0148_01_000021]isrunningbeyondphysicalmemorylimits我尝试搜索答案,但我找到的那个没有用。我的工作启动如下所示。hadoopjar../.versions/2.2.0/share/hadoop/tools/lib/hadoop-streaming-2.2.0.jar\-inputdeterminations/part-00000\-outputdeterminations/

hadoop - 无法查看作业历史记录 (http ://localhost:19888) page in web browser in Hadoop

我在Ubuntu14.0432位上使用Hadoop2.4.1版。当我使用hadoopjaruser_jar.jar命令运行示例作业时,我无法在http://localhost:19888上看到输出(找不到页面)可能的原因是什么?提前谢谢你。JPSoutput:3931Jps3719NodeManager3420SecondaryNameNode3593ResourceManager3246DataNode3126NameNode核心站点.xmlhadoop.tmp.dir/app/hadoop/tmpfs.default.namehdfs://localhost:54310hdfs-s